One of the key challenges in deploying RL to real-world applications is to adapt to variations of unknown environment contexts, such as changing terrains in robotic tasks and fluctuated bandwidth in congestion control. Existing works on adaptation to unknown environment contexts either assume the contexts are the same for the whole episode or assume the context variables are Markovian. However, in many real-world applications, the environment context usually stays stable for a stochastic period and then changes in an abrupt and unpredictable manner within an episode, resulting in a segment structure, which existing works fail to address. To leverage the segment structure of piecewise stable context in real-world applications, in this paper, we propose a \textit{\textbf{Se}gmented \textbf{C}ontext \textbf{B}elief \textbf{A}ugmented \textbf{D}eep~(SeCBAD)} RL method. Our method can jointly infer the belief distribution over latent context with the posterior over segment length and perform more accurate belief context inference with observed data within the current context segment. The inferred belief context can be leveraged to augment the state, leading to a policy that can adapt to abrupt variations in context. We demonstrate empirically that SeCBAD can infer context segment length accurately and outperform existing methods on a toy grid world environment and Mujuco tasks with piecewise-stable context.
translated by 谷歌翻译
Video super-resolution is one of the most popular tasks on mobile devices, being widely used for an automatic improvement of low-bitrate and low-resolution video streams. While numerous solutions have been proposed for this problem, they are usually quite computationally demanding, demonstrating low FPS rates and power efficiency on mobile devices. In this Mobile AI challenge, we address this problem and propose the participants to design an end-to-end real-time video super-resolution solution for mobile NPUs optimized for low energy consumption. The participants were provided with the REDS training dataset containing video sequences for a 4X video upscaling task. The runtime and power efficiency of all models was evaluated on the powerful MediaTek Dimensity 9000 platform with a dedicated AI processing unit capable of accelerating floating-point and quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 500 FPS rate and 0.2 [Watt / 30 FPS] power consumption. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
现有的二进制神经网络(BNN)主要在具有二进制功能的局部卷积上运作。但是,这种简单的位操作缺乏建模上下文依赖性的能力,这对于学习视觉模型中的歧视性深度表示至关重要。在这项工作中,我们通过介绍二进制神经模块的新设计来解决这个问题,这使BNN能够学习有效的上下文依赖性。首先,我们建议二进制多层感知器(MLP)块作为二进制卷积块的替代方案,以直接建模上下文依赖性。短距离和远程特征依赖性均由二进制MLP建模,其中前者提供局部电感偏置,后者在二元卷积中有限的接受场有限。其次,为了提高具有上下文依赖性的二进制模型的鲁棒性,我们计算上下文动态嵌入,以确定一般二进制卷积块中的二进化阈值。用我们的二进制MLP块和改进的二进制卷积,我们用明确的上下文依赖性建模构建了BNN,称为BCDNET。在标准Imagenet-1K分类基准上,BCDNET可实现72.3%的TOP-1准确性,并且优于领先的二进制方法的差距很大。尤其是,提出的BCDNET超过了最新的ReactNet-A,具有相似操作的2.9%TOP-1准确性。我们的代码可从https://github.com/sense-gvt/bcdn获得
translated by 谷歌翻译
在过去的几十年中,出现了一种趋势,指出在可移动,可编程和可转换机制中利用结构不稳定性。受钢制发夹的启发,我们将面板组件与可靠的结构相结合,并使用半刚性塑料板建造合规的拍打机构,并将其安装在束缚的气动软机器人鱼和无螺旋螺旋式的电动机驱动器上,以展示它的前所未有的优势。设计规则是根据理论和验证提出的。观察到与参考相比,气动鱼的游泳速度提高了两倍,对Untether Fish的进一步研究表明,对于不固定的兼容的游泳运动员,可损坏的速度为2.03 BL/S(43.6 cm/s),优于先前报告的最快的,其幅度为194%。这项工作可能预示着下一代符合下一代机器人技术的结构革命。
translated by 谷歌翻译
本文解决了机器人的问题,可以协作将电缆带到指定的目标位置,同时避免实时碰撞。引入电缆(与刚性链接相反)使机器人团队能够通过电缆的松弛/拉特开关更改其内在尺寸,从而使机器人团队能够穿越狭窄的空间。但是,这是一个具有挑战性的问题,因为混合模式开关以及多个机器人和负载之间的动态耦合。以前解决此类问题的尝试是离线执行的,并且不考虑避免在线障碍。在本文中,我们介绍了一个级联的计划方案,并采用平行的集中式轨迹优化,涉及混合模式开关。我们还每个机器人开发了一组分散的计划者,这使我们可以解决在线协作负载操作问题的方法。我们开发并演示了第一个能够移动有线电视载荷的首个协作自治框架之一,该框架太重了,无法通过一个机器人移动,通过狭窄空间,具有实时反馈和实验中的反应性计划。
translated by 谷歌翻译
我们从一组未配对的清晰和朦胧的图像中提供了实用的基于学习的图像飞行网络。本文提供了一种新的观点,可以将图像除去作为两类分离的因子分离任务,即清晰图像重建的任务相关因素以及与雾霾相关的分布的任务含量。为了在深度特征空间中实现这两类因素的分离,将对比度学习引入了一个自行车框架中,以通过指导与潜在因素相关的生成的图像来学习分离的表示形式。通过这种表述,提出的对比度拆除的脱掩护方法(CDD-GAN)采用负面发电机与编码器网络合作以交替进行更新,以产生挑战性负面对手的队列。然后,这些负面的对手是端到端训练的,以及骨干代表网络,以通过最大化对抗性对比损失来增强歧视性信息并促进因素分离性能。在培训期间,我们进一步表明,硬性负面例子可以抑制任务 - 无关紧要的因素和未配对的清晰景象可以增强与任务相关的因素,以便更好地促进雾霾去除并帮助图像恢复。对合成和现实世界数据集的广泛实验表明,我们的方法对现有的未配对飞行基线的表现良好。
translated by 谷歌翻译
最近的基于变压器的方法通过利用变压器的优势在秩序 - 不变性和建模依赖性依赖于聚合信息来实现高级云注册的高级性能。然而,它们仍然遭受模糊的特征提取,对噪音和异常值的敏感性。原因是:(1)采用CNNS由于其本地接受领域而无法模拟全球关系,导致易受噪声的提取特征; (2)变压器的浅宽度和位置编码缺乏由于效率低下的信息相互作用导致模糊的特征提取; (3)遗漏几何兼容性导致入世与异常值之间的分类不准确。为了满足以上限制,提出了一种用于点云注册的新型变压器网络,命名为深度交互式变换器(DIT),它包含:(1)点云结构提取器(PSE)来模拟全球关系,并通过变压器检索结构信息编码器; (2)深窄点特征变压器(PFT),以便于与位置编码的两个点云相互作用,使得变压器可以建立综合关联,直接学习点之间的相对位置; (3)基于几何匹配的对应置信置信度评估(GMCCE)方法来测量空间一致性,并通过设计三角形描述符来估计inlier置信度。在清洁,嘈杂,部分重叠点云注册的广泛实验表明我们的方法优于最先进的方法。
translated by 谷歌翻译
通过采用深层CNN(卷积神经网络)和GCN(图卷积网络),最近对3D点云语义分割的研究努力取得了出色的表现。然而,这些复杂模型的鲁棒性尚未得到系统地分析。鉴于在许多安全关键型应用中应用了语义分割(例如,自主驾驶,地质感测),特别是填补这种知识差距,特别是这些模型在对抗性样本下的影响。虽然已经研究了针对点云的对抗攻击,但我们发现所有这些都是针对单一物体识别的,并且在点坐标上进行扰动。我们认为,基于坐标的扰动不太可能在物理世界的限制下实现。因此,我们提出了一种名为Colper的新的无色扰动方法,并将其定制为语义分割。通过评估室内数据集(S3DIS)和室外数据集(语义3D)对三点云分割模型(PointNet ++,Deepgcns和Randla-Net)进行评估,我们发现只有颜色的扰动足以显着降低分割精度和AIOU ,在目标和非目标攻击设置下。
translated by 谷歌翻译
促进辅助(AAN)控制旨在通过鼓励患者积极参与促进机器人辅助康复的治疗结果。大多数AAN控制器使用阻抗控制来在目标运动周围创建柔性的力字段,以确保在允许中等运动错误的同时进行跟踪精度。然而,由于控制力场的形状的参数通常根据关于关于对象学习能力的简单假设在线手动调整或在线调整,因此可以限制传统AAN控制器的有效性。在这项工作中,我们提出了一种新颖的自适应AAN控制器,其能够根据每个单独的电动机能力和任务要求自动重塑力场以相位相关的方式重塑力场。该拟议的控制器包括使用路径积分算法的修改策略改进,一种无模型的采样的增强学习方法,该方法实时地学习了特定于主题的阻抗景观,以及嵌入AAN PARADIGM的分层策略参数评估结构通过指定性能驱动的学习目标。通过跑步机培训课程通过具有能够在动力踝足矫形器的协助学习改变的步态模式的跑步机培训课程,通过跑步机培训课程进行实验验证,拟议的控制策略及其促进短期运动适应能力的适应性。
translated by 谷歌翻译
The combination of global and partial features has been an essential solution to improve discriminative performances in person re-identification (Re-ID) tasks. Previous part-based methods mainly focus on locating regions with specific pre-defined semantics to learn local representations, which increases learning difficulty but not efficient or robust to scenarios with large variances. In this paper, we propose an end-to-end feature learning strategy integrating discriminative information with various granularities. We carefully design the Multiple Granularity Network (MGN), a multi-branch deep network architecture consisting of one branch for global feature representations and two branches for local feature representations. Instead of learning on semantic regions, we uniformly partition the images into several stripes, and vary the number of parts in different local branches to obtain local feature representations with multiple granularities. Comprehensive experiments implemented on the mainstream evaluation datasets including Market-1501, DukeMTMC-reid and CUHK03 indicate that our method robustly achieves state-of-the-art performances and outperforms any existing approaches by a large margin. For example, on Market-1501 dataset in single query mode, we obtain a top result of Rank-1/mAP=96.6%/94.2% with this method after re-ranking.
translated by 谷歌翻译